Skip to main content

Web Crawler Implementation

Common Libraries

Python >= 3.10

requests
bs4 (BeautifulSoup)
selenium
pandas
jupyter

Static Web Page

Libraries

Requests
BeautifulSoup
Selenium
Pandas

Implement

Dynamic Web Page

Libraries

Requests
JSON

Implement

Nownews (GET)

https://github.com/uuboyscy/course-PyETL/blob/master/part05_dynamicWebPage/06_nownews.py
Newmobilelife (POST)

https://github.com/uuboyscy/course-PyETL/blob/master/part05_dynamicWebPage/05_newmobilelife.py

Selenium

Libraries

Selenium

Driver environment

Chrome driver

https://googlechromelabs.github.io/chrome-for-testing/
Steps:
- Initiate driver
```
service = Service("./chromedriver")
driver = Chrome(service=service)
```
- driver.get(url)
- driver.find_element(by, value)
- driver.execute_script(javascript)
- driver.close()

Implement

PTT

https://github.com/uuboyscy/course-PyETL/blob/master/part07_selenium/00_seleniumUsage.py
Dcard

https://github.com/uuboyscy/course-PyETL/blob/master/part07_selenium/04_dcard.py
Options and remote driver

Common Libraries
Libraries
Implement
Libraries
Implement
Libraries
Driver environment
Implement